[Day08]時序差分學習

第 12 屆 iThome 鐵人賽

DAY 8

AI & Data

從根本學習Reinforcement Learning系列第 8 篇

12th鐵人賽

hankla

2020-09-08 10:38:39

6680 瀏覽

分享至

前言

Monte Carlo Method需要等到整個episode跑完才能更新，如果episode需要很多step才能結束的話會怎樣？如果你拿Monte Carlo去跑Taxi環境的話，會發現需要跑很久。這是因為我們State與Action太多，再加上隨機策略要到達Final State需要相當多step，進而造成更新很慢。

我們可以引進dynamic programming裡bootstrapping的概念，每個state只須依據下個state的值來更新，就不用等到episode跑完浪費時間了。

這種Monte Carlo裡的sample概念與dynamic programming裡的bootstrapping概念一起使用的算法就稱為時序差分學習 (Temporal difference learning)，簡稱TD Learning。

時序差分學習 (Temporal difference learning)

我們先從Monte Carlo來看，Monte Carlo的更新方法很簡單，依照來更新Value。

期望值可以用平均來計算，所以 $V(s)$ 可以寫成

這邊用 $n$ 表示目前考慮幾次 $G_{t}$ ， $V_{n}(s)$ 為考慮n個不同的 $G_{t}$ 之平均。

這就是前天結尾說的用incremental取代平均值，可以把 $https://chart.googleapis.com/chart?cht=tx&chl=%5Cfrac%7B1%7D%7Bn%7D$ 的部分可以換成任意值，稱為step-size或learning rate，通常以 $\alpha$ 表示。

這種方法的好處是越後面的資訊不會被前面的資訊稀釋。舉例來說，假如環境是會變動的，如果我們step-size用原本的 $https://chart.googleapis.com/chart?cht=tx&chl=%5Cfrac%7B1%7D%7Bn%7D$ 的話，環境變動後我們得到的 $G_{t}$ 對期望值的影響會隨著 $n$ 變大而越來越小。如果將step-size設為常數，變動後的 $G_{t}$ 都會有固定比例來改變期望值 $V(s)$ 的值。

所以Monte Carlo公式可以寫成這樣：

這邊就不特別把 $V_{n}(s)$ 的 $n$ 寫出來了，但實際上一樣是根據每個 $G_{t}$ 的值來增加

還記得 $G_{t}$ 的期望值嗎？

我們可以將 $G_{t}$ 以上面期望值的形式取代，形成期望值的期望值，這種更新方法就稱為Temporal difference learning。

可以證明TD Learning一樣可以收斂，且理論上收斂的速度比Monte Carlo還要快

公式中 $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$ 稱為TD error，可以想成我們目前的估計值 $V(S_{t})$ 與真實值 $R_{t+1}+\gamma V(S_{t})$ 的差距。當差距越大， $V(S_{t})$ 的更新越多，當差距越小， $V(S_{t})$ 的更新就越少。